技术博客 数据知识化:迈出“构建以AI为中心”工作流的第一步

数据知识化:迈出“构建以AI为中心”工作流的第一步

信任危机

高质量知识——扎根核心业务的唯一银弹

这几年,AI 大模型无疑是科技圈最热闹的风口。对话闲聊、文案生成、日常咨询,各类应用早已随处可见,给人一种 “AI 已经无所不能” 的错觉。但褪去流量热度,下沉到真实产业场景就会发现:热闹都在通用场景,硬核行业依旧保守。金融风控、医疗诊疗、政务办事、工业生产这些关乎合规、安全、责任的核心领域,大模型难以插手,最后只能在 chat 助手、简单咨询这些场景里打转。

背后还有一层更隐蔽的现实:**企业沉淀几十年的业务文档与工作流程,从一开始就不是为 AI 读取设计的。**常见的合同、报告、操作手册其中的排版版式、图文表格、批注签章、格式注解,全都是围绕“人看得懂、看着舒服”打造的,这套人类适配的版式逻辑,反倒成了机器理解内容的天然阻碍。

不止文档适配有隔阂,这类行业还有一条绝不能触碰的底线:**核心业务零容错。**一句客服答复出错、一份病历遗漏关键信息、一次政策解读引用废止条文,出错的代价远不止体验不佳,更会触发合规追责、透支用户信任,极端情况下甚至直接拖垮整条业务链路。

Gartner 在《2025 年中国数据、分析和人工智能技术成熟度曲线》里对这早已给出定论:大模型可靠性不足、幻觉频发,是它难以进入企业核心场景的关键障碍。报告里 Gartner 分析师闫斌还专门点出行业普遍存在的 “Agent Washing”(贴牌智能体) 现象:把普通聊天机器人包装成所谓”智能体”,背后没有真正的知识支撑,谈不上做决策[1]。

问题的根本在于:大模型学的是怎么说话,不是事实是什么。《人民日报》做过一个比方[2]:大模型预训练数据能到 13 万亿 token,差不多顶 500 万套四大名著。DeepSeek V3 达到 14.8T,2026 年 4 月发布的 V4-Pro / V4-Flash 直接拉到 33T / 32T tokens[3],相当于 1200 多万套四大名著。但这么大的信息量被”压缩”进有限的参数里之后,输出时反而特别容易一本正经地胡说八道,也就是常说的 AI 幻觉。

破局点只有一个:高质量知识。 让模型在回答之前先去翻一遍”专属资料库”,而不是靠印象瞎编,这正是 RAG(检索增强生成)这两年迅速铺开的原因。

这两年行业早已形成共识:模型从来不是真正的瓶颈,数据才是。微软 Phi-3/Phi-4 系列就是最好的例子 —— 靠 “教科书级” 的高质量语料训练,仅 4B 参数的小模型,在多项权威评测上直接干翻参数体量大自己几十倍的通用大模型[4],这足以证明:**数据质量的杠杆效应,远大于盲目堆参数。**Forbes 2026 年那篇被反复转引的评论标题更直接——《世界级算法栽在二流数据上》[5]:企业落地失败的真正原因,几乎都不是模型选错了,而是喂进去的数据本身就不干净、不结构化、不可追溯。

Garbage in, hallucinations out. 无论模型迭代到什么级别,若原始数据杂乱无章、未经规整,最终输出难逃幻觉缠身。

而企业最可靠的资料库,往往就在自己手上。几十年攒下来的业务经验,绝大多数都落在文档里:合同里是条款,报告里是数据,论文里是方法,手册里是规程。这些东西经过人来回核过、在真实业务里跑过,可信度本来就比训练语料高一截。

解析,就是这场知识化旅程的第一道关:把散落各处的文件,转化为 AI 真正能用的知识输入。今天的文档之所以需要被”读懂”,是因为它们一开始就不是写给机器看的。未来某天,当企业的工作流真正围绕 AI 重新设计,文档或许会直接以机器友好的形式生成,解析这道工序也会被重新定义,甚至退到幕后。但在那一天到来之前,几十年、上百亿份”人类格式”的资料摆在那里,必须被重新读懂一遍。这件事没有捷径——这就是解析在当下不可或缺的理由。

解析——AI 的”视网膜”

人类眼中的光不是知识,是视网膜与视觉皮层的”解析”,才让光成为”世界”

“解析”这个词,连业内人士都没统一过叫法。

LangChain 管它叫 loader(加载器),强调”把东西搬进来”的动作;学术论文和技术文档里则习惯叫 parser,强调”把东西拆开看清楚”的过程。一个盯着起点,一个盯着过程,两个名字都没错,只是各自抓住了解析的一条腿。

把两条腿合在一起,才是解析的全貌:通过技术手段,将非结构化或半结构化数据(PDF、Word、图片、表格、音频……)提取、分析、转换,变成机器能理解、能处理的结构化知识,并为后续 AI 应用提供标准化的知识输入。

文件范围

只要人类写过字的地方,解析都得想办法读懂。但每种文件的特性差得很远,并且有条反直觉的规律:越是”给人看着舒服”的格式,往往越难让机器读懂。

纯文本 / 网页:最省心的一类。有标签、有结构,按照既定的规则直接读取就行。

Word(DOCX):典型的“表面光鲜”类型。内容和样式彻底拆分存储、表格无限嵌套层级、图文混排随心所欲,排版逻辑全靠 Office 自家规则兜底。外人看着整整齐齐,机器解析时根本摸不清文本、图表、版式之间的从属关系,拆结构堪比拆一团缠死的耳机线。

•** Excel(XLSX)**:表格看着简单,实则一坑一个不吱声。合并单元格的值只存在左上角那一格、隐性合并单元格、多工作表关联混杂、单元格跨行列逻辑错乱、空白行列干扰结构识别,再加上混搭格式、隐藏行列干扰字段对齐。

PPT(PPTX):自由画布 =解析重灾区。文字框想摆哪儿就摆哪儿,没有天然阅读顺序,机器不知道从哪儿读起,只能盲目遍历。

扫描件 / 图片文字:大量历史档案、法律文件、学术出版物到今天还以扫描件形式躺着,是数字化没追上的历史欠账,不是有人故意刁难机器。对机器来说,这类文件等于眼前一片黑,只能靠 OCR “硬猜”,错别字和断句是家常便饭。

音频 / 视频:解析界的新晋“天花板”,也是最不省心的一类。音频要先把声音转成文字(ASR),再分辨谁在说、说了什么;视频更夸张:画面轨、音频轨、字幕轨多源信息交织耦合,不是单一条线索,而是多维度信息要对齐融合。当下越来越多企业把会议录音、培训视频、客服通话等沉淀为私有知识库,也倒逼解析能力快速补齐短板。

•** PDF**:看着最通用,实则解析界的终极 Boss。

全球每天流转的合同、报告、论文、票据,绝大多数都是 PDF,谁都能打开,谁都看得懂。但 PDF 实际上”只管画面、不管结构”:它只记得每个字符该画在哪个坐标,至于”这是标题""那是段落""这块是表格”,它完全不管。

也因此,后文所有的技术讨论都默认对象是 PDF。一方面它本来就是企业文档的绝对主流,另一方面解析会遇到的那些典型难题(字体、版式、表格、公式、扫描件、图文混排)几乎都能在 PDF 身上集齐。

职责范围

解析在不同场景里,工作范围和承担职责差距很大。

举个不太恰当的例子,就像”厨师”这个词:有人只负责备菜,有人要从采购到摆盘全包。解析也一样,场景不同,职责边界也是天差地别:

RAG,才是解析的重头戏

在 RAG 中,解析不只是”把文件内容读出来”,更要在读的过程中保留元素之间的结构关系:文字、公式、表格、图像并不是孤立的,它们的位置关系、层级关系本身就是知识的一部分。把”线性排列的文字”变成”AI 能检索的结构化知识”,是两件本质不同的事。具体说:

• 章节→ 层级关系

• 段落→ 语义块(大小要刚好,不能太大也不能太小)

• 表格→ 键值对 / 关系

• 公式 / 代码 → 特殊语义单元

• 图表→ 描述性知识

结构化之后,还有一步:切片,把长文档切成合适大小的”知识块”,再送入向量库供检索。切得好不好,直接决定 AI 能不能找到、找准、用对知识:

• 块太大→ AI 记忆模糊,说话含糊其辞

• 块太小→ AI 记忆碎片化,东拼西凑答非所问

• 无结构→ 检索不到

• 有噪声(页眉页脚、乱码、广告残留)→ AI 回答跑偏

而解析阶段得到的结构信息,影响远不止于此,它会顺着 RAG 流程一路传导:层级结构能让召回更精准(同名子标题下的不同内容,有了层级才能区分);切片可以顺着章节、段落天然边界智能裁切,避免暴力硬拆破坏语义;等到检索召回阶段,还能依托结构做上下文连带补全,比如召回一个小标题,自动把该标题下的所有内容一并补进来。

解析做得好不好,决定了知识能不能真正”用起来”,这也是本文接下来要重点拆解的事。

演进三阶:文档解析的迭代之路

行业对文档解析的探索,走过了拼凑、通识、原生式建模三段循序渐进的历程

面对”把文件读懂”这道难题,行业里目前走出了三条思路截然不同的路:

第一条路:流水线(Pipeline),把解析任务拆成一道道工序(图像处理、布局分析、内容识别提取、元素块关系整合),像工厂流水线一样依次执行。每个环节可以单独打磨,出了问题好定位。代价是:错误会一级一级叠加,前一步跑偏,后面全跟着偏。

第二条路:通用大模型,直接让 GPT、Claude 这类通用模型来”看图读文”。跳过了复杂的流水线,但通用模型没有专门针对文档解析优化,遇到复杂排版、大量表格、专业公式,往往力不从心。

第三条路:解析专用大模型,专门为文档理解训练的多模态模型,把整张文档页面直接输入,一步输出结构化内容。既有大模型的理解能力,又针对文档场景深度优化,代价是更大的模型体积、更多的训练数据和计算资源。

三条路各有取舍,下面逐一拆开看。

解析流水线

流水线的思路很直观:既然”把文件读懂”太复杂,就把它拆成若干个专项任务,每一步专注干一件事,依次交接。整个过程像工厂装配线,图像预处理、布局分析、内容识别提取、 表格识别、关系整合等,每道工序各司其职。

这种思路的优点很突出:每个环节都能单独优化、升级,比如觉得OCR识别不准,直接替换OCR模块就行,不用动整个流水线的架构,灵活性拉满。但缺点也同样致命,堪称“一步错、步步错”:前序环节的错误会像多米诺骨牌一样,一路向下传递。比如前一步布局分析错判了表格边界,后面的内容提取就会跟着跑偏,最后可能输出一份“结构看着完整,内容却一塌糊涂”的解析结果,相当于白忙活一场。

流水线各环节也都是不能轻松拿下的:

布局分析:现有模型对相似元素类型的区分能力有限,列表、普通文本块、无边框表格,视觉上长得太像,经常分不清;标题层级的判断也容易出错,后续步骤一旦”拿错了骨架”,全链路都会跑偏。

•** OCR**:分两步走,先做位置检测(找到文字在哪),再做文本识别(把字认出来)。两步都有坑:密集文字块、特殊字体、复杂背景都会影响识别质量。

表格识别:规整的有线表格还好处理,真正的难点是合并单元格:跨行跨列、嵌套合并、多行内容,机器想完整还原这类复杂结构极其困难。

公式识别:分行间公式行内公式两类。行内公式跟正文混排、没有视觉分隔,起止边界极易识别错;分数、根号、矩阵、多层上下标转成 LaTeX 时层级稍有偏差,整段语义就崩了,相当于“差之毫厘,谬以千里”。

图表解析:尚无统一转换标准,大多数方案是半自动或针对特定图表类型定制,通用性有限。

元数据提取:这是最容易被忽略的“隐藏宝藏”,包括目录结构、超链接、字体样式、书签层级……这些不在正文里,但在恰当的场景下价值不小:目录可以直接还原文档层级,链接能补全引用关系,字体样式有时能辅助判断标题和正文。不提取,就是白白丢掉了一份现成的结构线索。

文本关系整合:所有元素提取完成后,还要按正确的阅读顺序把它们重新串联,尤其是双栏、多栏排版,左栏一段、右栏一段不能混读,图像和表格也要在合理的位置穿插进来,而不是堆在文末。

布局分析

布局分析是后续所有步骤的基础:**先看懂页面的”骨架”,再去提取内容。**它要识别页面上每个元素的类型(文本块、标题、表格、图片、公式……)、位置,以及它们之间的关系。

这件事的技术演进可以分三层看:

第一层· 元素在哪里。 把页面切成块。早期以CNN 为主(R-CNN / Mask R-CNN / YOLO 系列),其中 DocLayout-YOLO[6] 在 YOLO-v10 基础上加了全局到局部感受野模块(GL-CRM),应对大小差异悬殊的元素,是目前工程界的主力。Transformer 路线(BEiT、DiT)全局特征更强但算力也更贵。另外还有基于图(Doc-GCN、GLAM)和基于网格(BERTGrid、VGT)的补充路线[7]。这一层能告诉机器”这里有块内容”,但分不清标题还是图注。

第二层· 元素是什么。 给每块认个语义角色(标题 / 段落 / 页脚 / 题注 / 列表)。标志性工作是 LayoutLM 系列[8-10]:v1 把文本和坐标嵌入结合,v2 加入图像特征,v3 用统一的文本-图像掩码预训练把结构简化到位。“文本 + 布局 + 图像”三合一从此成为多模态文档模型的主流配方。

第三层· 元素之间什么关系。 最新也最难的一层,把区域检测、角色分类、阅读顺序统一建模为”关系预测”。DLAFormer[11](2024)是代表作,用一个端到端 Transformer 同时预测域内、域间、语义角色三类关系,避免多阶段误差传播,在 DocLayNet 等基准上全面领先。2025 年后的 HybriDLA[12] 和DRGG[13] 继续推高指标,目前主要停在研究阶段。

训练数据也在同步进化。PubLayNet[14] 只覆盖 5 类学术版式;M6Doc[15](合合信息 & 华南理工,2023)扩到 74 类、9080 页、7 种文档类型,标注粒度上了一个台阶。但真实业务里的”野生文档”(产品手册、施工图、海报、混排合同)仍然远超这些数据集的覆盖范围。

内容提取

布局分析画好了每块内容的位置和角色,但还没把字”读出来”。到了内容提取这一步,才真正开始跟文字、公式、表格、图表打交道,每种都有自己的门道,得分头处理。

动手之前,有条捷径得先提一嘴:内嵌了文本层的标准 PDF(非扫描件),用 pypdf、PyMuPDF、pdfminer 这类工具可以直接把文字扒出来,不用走 OCR,又快又便宜。

但”能提取”不等于”提取干净”。真实项目里,直接提取翻车的场景比比皆是:

• **字体的坑:**字体子集化或嵌入不规范,抽出来是乱码、方块字、甚至一片空白

• **看得见抽不着:**水印遮住的文字、被其他元素叠压的文本,人眼能看见,工具却给不了

• **混合排版:**同一页里文字和图片掺在一起,文字部分直抽,图里的字必须走 OCR,两条路得同时跑

所以即便拿到的是”带文字的”标准 PDF,老老实实用 OCR 兜底仍是常态。

OCR(光学字符识别)

OCR 是内容提取的基础能力:把图像里的文字,变成计算机能处理的文本。

标准流程分两步:文本检测(在图像里找到哪里有字)→ 文本识别(把找到的字认出来)。两步合在一起叫 text spotting(文字定位识别)。

OCR 的挑战来自两端:一端是复杂版式(密集文字、多列混排、特殊字体),另一端是专项内容(表格里的字、公式里的符号)。通用 OCR 模型和专项模型之间的能力边界,至今仍是工程上需要仔细权衡的地方。

公式提取

数学公式是文档里最”另类”的内容:既不是普通文字,也不是图表,而是一套有严格语法规则的符号系统。提取公式,需要把渲染好的符号图像转换成 LaTeX 或 Markdown 等结构化格式。

最麻烦的不是独立成行的”展示型公式”(视觉上和正文明显分离,比较好检测),而是嵌在段落里的行内公式:字号和正文接近,与周围文字紧挨着,机器很难准确找到它的起止位置。行内公式的识别,至今仍是这个环节最棘手的难点。

表格提取

表格是”结构化知识”最密集的载体,也是最难从文档里完整提取的内容之一。

整个过程分两步:表格检测(找到表格在页面上的位置,与其他内容区分开,不少流水线会直接复用布局分析的结果)→ 表格结构识别(搞清楚内部的行列关系、单元格边界、合并情况)。

结构识别有三条主要技术路线:

行列分割法(自顶向下):先定位整个表格,再切分行列。对边界清晰的规整表格很有效,碰到空白多、排列不规则的表格容易出错。进阶版本引入了合并概率估计和 Transformer 全局建模,改善了对复杂单元格关系的处理。

单元格检测法(自底向上):先找到每个独立单元格,再拼出整体结构。处理复杂表格更灵活,但计算量大,单元格识别出错会直接影响最终结构。

图像到序列法:受 OCR 和公式识别启发,用编码器-解码器架构把表格图像直接转成 LaTeX 或 HTML。对复杂表格适应性最强,但训练难度高,误差传播仍是挑战。

图表提取

图表是文档里”最难被机器理解”的内容,它把数据压缩成了视觉符号,机器看到的只是像素。

图表处理通常经过几个子任务依次完成:图表分类(折线图还是饼图)→ 元素识别(坐标轴、图例、数据点在哪里)→ 数据提取(把视觉图形还原成原始数据或 JSON)→ 图文关联(找到对应的标题说明)。

图表解析目前仍是流水线里最不成熟的环节,缺乏统一标准,大多数方案只能处理特定图表类型。多模态大模型在理解复杂图表上展现出潜力,但如何把大模型的理解能力融入模块化流水线,仍是开放问题。

关系整合

前面几步各自输出了文字、公式、表格、图表,最后这一步的任务,是把散落的碎片拼回成一个有逻辑的整体。

具体做法是利用布局分析阶段得到的空间坐标信息,结合基于规则的系统或专门的阅读顺序模型,还原内容的逻辑流程:哪一段文字在哪个标题下、哪个表格配哪段说明、图注和图片如何对应。

这一步做得好,输出的是一份结构清晰、层级完整、可供后续直接使用的结构化文档;做得不好,输出的就是一堆”看起来对”但逻辑混乱的内容碎片。

通用大模型:一步到位的方案?

文档解析的流水线模块繁多,难免出现衔接问题。于是一个自然的想法应运而生:能否跳过流水线,让足够聪明的大模型“看一眼就读懂”文档?

这正是 GPT-4o、Claude、Gemini、Qwen-VL、InternVL 等通用多模态大模型(VLM)正在做的事情。它们接受图像和文本的混合输入,直接输出结构化内容,不需要单独的布局分析、OCR、表格识别模块,一个模型打通全链路。

这种方案的吸引力显而易见:

• **语义连贯性:**流水线的输出是碎片拼装的结果,而 VLM 在一次推理中完成全局理解,输出的文本在逻辑上更通顺,不会出现”表格被截断在两段中间”这类拼装错误

• **灵活性极高:**同一个模型,换一条 prompt 就能切换任务(从纯文本提取到表格解析到图表描述),不需要为每种内容维护一条独立管线

• **对非标准文档更友好:**海报、宣传册、手写笔记这些让传统流水线束手无策的”野生文档”,VLM 反而能凭借通用视觉理解能力给出还不错的结果

但”看一眼就懂”的代价同样真实:

**幻觉(Hallucination)**是最致命的问题。 这正是文章开头反复提到的那个”命门”(大模型可靠性不足、幻觉频发),在解析这一关上被再次放大。VLM 并不是在”抄写”文档内容,而是在”预测”下一个 token,意味着它有可能自信满满地编造出原文根本不存在的文字。在知识管理场景里,一个被悄悄篡改的数字或术语,比漏提一段话危害大得多。根据 CodeSOTA 在 2026 年发布的 CC-OCR 评测[16]:GPT-4o 的编辑距离(edit distance,把识别结果改成原文所需的最少增删改字符数,越小越准)约 0.02,Claude 约 0.03,看起来差距不大,但 Claude 的幻觉率(0.09%)明显低于 GPT-4o(0.15%)。“更准”与“更少编造”需工程权衡。

高密度长文本是第二道坎。 整页密排文字对VLM的视觉-文本对齐是巨大挑战,部分模型因冻结底层语言模型参数,易出现重复输出、格式错乱、丢失上文的问题,现有对齐方法仍力不从心。

**表格和公式仍是软肋。 **尽管 VLM 能”看懂”简单表格,但遇到多级表头、大面积合并单元格、或者嵌套表格时,输出准确率会明显下降。公式识别也类似,展示型公式勉强能应付,行内公式几乎必错。Reddit热帖[17]精准点出症结:模型将二维表格压成一维token序列,丢失行列关系,无边框表格、多行单元格更是易导致解码崩盘。社区共识是,复杂表格仍需专用模型做后处理。

成本不可忽视。 每页文档都要作为图像输入模型,token 消耗巨大。以 GPT-4o 为例,处理 1000 页文档的 API 费用约 7.5 美元,Claude 约 6 美元,对于动辄数十万页的企业文档库,这是一笔沉重的账单。而且推理速度远慢于传统 OCR 引擎,无法满足实时批量处理的需求。

文档类型覆盖仍有盲区。 当前 VLM 的训练数据和评测基准主要集中在科学论文、教科书等结构化文档上,对于说明手册、工程图纸、报纸版面、古籍扫描件等更复杂的格式,表现参差不齐。M-LongDoc 等新基准正在推动对超长文档理解能力的系统评估,但距离”通用文档解析”的目标仍有明显差距。

通用大模型给文档解析带来了”端到端”的可能性,但目前更适合作为流水线的补充而非替代:在非标准文档、语义理解、快速原型等场景中发挥优势,而把高精度、大批量、零容错的任务留给模块化系统。真正有意思的一条路,是专门为文档解析训练的端到端模型:既想要流水线的精度,也想要大模型的灵活,兼得两路的优势。

解析大模型:专门为文档而生

在文档解析这个需要极致精度的任务上,“差不多”等于”不够用”。那要是把通才换成专才,从头训一个专门为文档解析而生的模型呢?

这正是”端到端解析大模型”(Document-Expert Large Models, DELMs)的思路:保留大模型”一步到位”的简洁架构,但在训练数据、视觉编码器、解码策略上全部针对文档场景深度定制。它们不试图理解整个视觉世界,只专注于一件事:把文档图像精准地变成结构化文本。

从开荒到军备竞赛

这条路线的起点可以追溯到 2023 年。Meta 发布的 Nougat[18]是早期代表作,用 Swin Transformer 编码器搭配 mBART 解码器,首次实现了学术 PDF 直接转 Markdown 的端到端流程,不依赖任何外部 OCR 模块。它证明了一个关键假设:专门的视觉-语言模型可以跳过整条流水线,直接从像素到结构化文本。

2024 年,这条赛道迅速拥挤起来:

• **GOT-OCR 2.0[**19](阶跃星辰)提出了”万物皆字符”的理念:文字、公式、表格、甚至乐谱,全部视为待识别的”对象”。模型用 500 万文本-图像对训练,采用预训练→联合训练→微调的三阶段策略,在复杂图表和非传统内容上超越了此前所有专用模型

• **OmniParser[**20] 将文本解析、关键信息提取、表格识别统一到一个框架里,用两阶段解码器将 OCR 与结构序列处理解耦,推理速度和表格识别精度同时提升

Fox[21] 引入多套预训练视觉词表(CLIP-ViT + SAM-ViT),不修改预训练权重就能同时处理自然图像和文档数据,把能力边界拓展到多页文档的跨页翻译和摘要

这一阶段的关键突破,是证明了端到端模型不仅能做到”准”,还能做到”全”:从单一的学术论文解析,扩展到了多类型、多页面、多任务。

小模型掀翻大模型:当前的技术竞赛

真正让行业震动的,是 2025-2026 年涌现的一批亚 1.5B 参数的轻量级解析模型,它们在标准基准上全面超越了 GPT-4o、Gemini、Qwen2.5-VL-72B 等体量大出几十倍的通用模型。这在整个 AI 领域都算得上罕见的”以小博大”。

PaddleOCR-VL(百度,0.9B 参数)是这波浪潮的引爆点。它用 NaViT 动态分辨率编码器搭配 ERNIE-4.5-0.3B 语言模型,在 OmniDocBench V1.5 排行榜上以 90.67 的综合分一度拿下第一,全面领先文本、表格、公式、阅读顺序四项核心指标。支持 109 种语言,推理速度比同期模型快出一截,而且可以在 CPU 上运行,甚至做成浏览器插件。后续版本 PaddleOCR-VL-1.5 进一步将准确率推到 94% 以上。

DeepSeek-OCR(DeepSeek)走了一条更有想象力的路。它的核心创新不在”读”,而在”压”:通过视觉编码器将文本图像压缩成极少量的 vision token,压缩比达 10-20 倍,97% 的信息仍可解码还原。它的 DeepEncoder 巧妙地将 SAM-Base(局部注意力)和 CLIP-Large(全局注意力)串联,中间用 16 倍卷积压缩器衔接,让高分辨率图像处理的计算量大幅下降。2026 年初发布的** DeepSeek-OCR-2 更进一步,引入了”视觉因果流”**(Visual Causal Flow):打破传统模型从左上到右下的固定扫描顺序,让模型像人类阅读一样根据内容语义动态决定阅读路径。在 OmniDocBench V1.5 上达到 91.09% 的准确率,阅读顺序编辑距离从 0.085 降到 0.057。

GLM-OCR(智谱 AI / 清华,0.9B 参数)一度刷到 OmniDocBench V1.5 上 94.6 的高分,超过了 Gemini 3 Pro(90.3)和 GPT-5.2。它的秘密武器是多 token 预测(Multi-Token Prediction, MTP):训练时每步预测 10 个 token,推理时平均每步解码 5.2 个 token,吞吐量直接提升 50%。架构上先用 PP-DocLayout-V3 做布局检测,再对各区域并行识别,不是整页”看一遍”,而是分区精读。它还区分了文档解析(输出 Markdown/JSON)和关键信息提取(输出 JSON)两条任务路径,并在训练最后阶段引入了强化学习(GRPO),对文本、公式、表格、关键信息分别设计奖励函数。实际使用下来并没有那么好,对于文档中图片的获取能力还是缺失。

MinerU 2.5-Pro[22](上海 AI Lab,1.2B 参数)是当前的擂主。架构上沿用 MinerU 2.5 的”两阶段解耦”思路:第一阶段在低分辨率下完成布局检测(找到哪里有什么),第二阶段在原始分辨率的裁剪区域上做内容识别(精确读出内容),先看全景再看细节。但 2.5-Pro 的关键改动不在架构,而在数据,论文标题就直接挑明”Data-Centric Document Parsing at Scale”:通过大规模数据工程和训练策略升级,在不动结构的前提下把成绩又往上抬了一截。2026 年 4 月,它在 OmniDocBench v1.6 上拿到** 95.69 **的综合分,正面压过 GLM-OCR(94.6)和 Qwen 3.6 Plus(91.20),稳坐榜首。新版本同时加了图表解析、跨页表格合并、表内图片识别、断段重接等工程化能力,更贴近真实业务场景。这条路给行业的启示也很直接:模型已经够小够快了,下一个突破口在数据,不在堆参数。

小模型为什么能赢?

这些亚 1.5B 模型打败 72B 通用模型,不是侥幸,而是反映了一个深层规律:专业化战胜通用化。具体来说,有三个共同的架构选择在起作用:

1. **两阶段解耦已成共识:**先做布局分析(低分辨率、快速),再做内容识别(高分辨率、精准)。MinerU 2.5/2.5-Pro、GLM-OCR、PaddleOCR-VL 不约而同采用了这个策略。本质上,它们把流水线的”分而治之”智慧,重新嵌入到了端到端模型的内部架构里

2. 视觉编码器为文档定制:通用 VLM 的视觉编码器(如 CLIP-ViT)是在自然图像上训练的,对文字密集的文档并不友好。解析大模型则专门设计了高分辨率、动态分辨率的视觉编码器,能看清 A4 纸上 8pt 字体的每一笔每一划

3. **解码策略做了彻底重新设计:**从 GLM-OCR 的多 token 预测,到 DeepSeek-OCR-2 的视觉因果流,这些模型都在挑战”一次预测一个 token”的传统范式,用更符合 OCR 特点的方式生成输出

而 MinerU 2.5-Pro 在 2026 年的反超还揭示了第四点更”反直觉”的事实:**架构红利吃完之后,数据工程才是下一关。**同样的两阶段解耦结构,仅靠大规模数据筛选、训练策略升级,就能把成绩从 SOTA 再往上拽 1-2 个点。这意味着小模型赛道的竞争已经从”比谁结构更巧”转向”比谁数据更扎实”。

基准测试之外的现实

不过,基准测试上的数字需要冷静看待。OmniDocBench 作为当前最主流的文档解析评测标准,覆盖 9 类文档、1355 页,听起来不少,但相比现实世界的文档多样性仍然有限。它偏重学术论文和教科书,对金融报表、法律文件、保险单据、工程图纸等复杂业务文档覆盖不足。而且评测指标(编辑距离、TEDS、CDM)对标点符号、空格、换行等”无害差异”也会扣分,这意味着得分差距不一定反映真实的解析质量差距。

LlamaIndex 最近的一篇分析[23]直言不讳:“OmniDocBench is saturated”,多个头部模型已经卷到 94-95% 区间,剩下的提升空间退化成边缘案例的修修补补,而不是解析能力的实质进步。真正的硬仗,在基准之外的”长尾文档”里。

95 分之后:下半场重回低谷

入场券,不是毕业证

前面三条技术路线(流水线、通用大模型、解析大模型)在论文和基准测试里看起来都挺像回事。但把它们搬进真实的生产环境,你会发现技术可行和工程可用之间,还隔着三道关卡。

第一关:成见

真到了业务落地的时候,最难的往往不是算法,而是预期管理。

“解析不就是读文件吗?”

这是我们在进行解析项目前期沟通时最常听到的一句。在很多业务方的认知里,文档解析和”打开文件”差不多:Office/WPS 能打开的东西,解析器当然也能读出来,凭什么还要 GPU?

平心而论,这句话在某些场景下确实成立。前文提到的 pypdf、pdfplumber、PyMuPDF 这类工具,对内嵌了文本层的标准 PDF、规范的 Word/HTML,确实能直接抽出文字,CPU 跑跑就够。但解析项目真正要面对的场景,几乎从来不是这种”乖文件”,而是扫描件、混合排版、字体子集化乱码、合并单元格的复杂表格、图文交叉的报告、专业领域的图表和公式。这些直抽工具一上手就会哑火,整条流程被逼回 OCR + 布局分析 + 表格识别 + 关系整合的全套流水线。

我们通常需要给用户做出实在的解释:用肉眼”看懂”一页文档,和让机器”结构化理解”同一页文档,完全是两个量级的任务。 人脑能自动补全模糊的字、推断断裂的表格、根据上下文忽略水印;机器做同样的事,得把前面提到的所有过程都跑一遍(参见解析流水线 章节),每一步都吃算力,少一步整页就读偏。

而且这种”吃算力”并不是流水线独有的。如果是通用大模型那条路,GPT-4o、Claude、Gemini 这种巨型 VLM 单次推理的开销远比一条专项流水线还要重;走解析专用大模型路线,MinerU 2.5-Pro、GLM-OCR 这些 1B 量级的小模型虽然轻了不少,但仍然需要 GPU 才能跑出可用的吞吐,何况还要做布局检测和内容识别两阶段。三条路各有各的精打细算,但没有一条是”白嫖 CPU 就能搞定”的。

业务方看不见这些,决策者也很少有人懂。解析团队遇到的第一道关,往往不是技术难题,而是”零资源约束下的不可能任务”。

[实战手记] 我们的应对策略其实是一套两层调度:

第一层· 按文件特性分流。 服务入口先做一道快速体检:是不是扫描件?文本层完不完整?字体有没有子集化?标准 PDF / 规范 Word / HTML 直接走 pypdf、pdfplumber、PyMuPDF 这类轻量工具,CPU 几秒搞定;判定为扫描件、坏字体、低质量混排的,再调度到 OCR + 布局分析 + 表格识别的重型流水线。能省一步算力,就少烧一份预算。

第二层· 按业务场景定档。 同样一份”重型文件”,不同业务对精度和速度的容忍度天差地别:审计要逐字精确,运营要批量快入。我们把流水线里几个关键能力都做成了可选档位:表格识别引擎可切换(轻量规则 vs 专用模型)、图片是否走 OCR、是否启用图表与标题的语义关联、是否调用大模型对层级结构做增强识别……这些参数对外暴露给用户或上层应用,由它们根据场景按需勾选。

这套解决方案的本质是:不把”高精度全家桶”当默认值,而是让算力消耗跟业务收益挂钩。 用户能看见每一档的成本与效果对比,资源约束自然就不再是”不可能任务”,而是一个透明的工程权衡。

“为什么解析总在出错”

用户在知识库里问问题答案不对,或者文件上传后界面报错,第一反应几乎永远是:“解析没弄好。” 但放到完整的 RAG 链路里看,真相往往不是这样。

完整链路是这条:

任何一环出问题都会让答案跑偏:切片切在表格中间,召回拿到残缺上下文;Embedding 对专业术语不敏感,检索就偏;Rerank 排序失误,正确段落根本没进大模型的输入窗口。再加上业务侧有条硬约束:RAG 问答必须解析成功且入库后才有数据可查,任何一步卡住整条链路就废,所以后台往往把解析、切片、向量化、入库串成一次性流程跑完。结果就是:向量化阶段模型服务挂了,UI 仍然显示”解析失败”。用户看到的”解析报错”,相当一部分跟解析没关系。

[实战手记] 我们项目里逐渐固化了一套**“从后往前归因” **流程:用户反馈”答案不对”或”解析挂了”,不先调解析参数,而是反向逐环节查:先看大模型输入的上下文是否包含正确信息,再看召回是否命中目标段落,再看切片边界,最后才看解析输出。大多数情况下,问题出在解析之后的环节。

第二关:泥潭

认知问题理顺之后,真正的技术硬仗才开始。

复杂场景实录

基准测试里的文档通常是”好学生”:排版规整、清晰度高、格式标准。但真实生产环境里的文档,简直是”全员恶人”:

扫描件质量参差不齐:歪斜、模糊、光照不均、手指遮挡,同一份合同,不同人用不同扫描仪扫出来效果就天差地别

混合版式文档:一页里同时出现双栏文字、嵌套表格、行内公式、脚注引用、带边框的提示框,布局分析模型需要在一张图上同时处理五六种元素类型

非标准表格:跨页表格(表头在上一页)、无边框表格(纯靠空格对齐)、表中嵌表、单元格里塞了一整段话甚至一张图

低质量 PDF:字体子集化导致提取出乱码,加密保护导致无法读取,“可编辑 PDF”实际上是图片叠了一层透明文字层(位置还经常对不上)

编辑器容错的”善意伪装”:WPS / Word 为了用户体验做了大量容错,格式错乱的表格帮你修复,异常编码的字符帮你替换,文件结构损坏也能勉强打开。用户看到”能正常打开”,就以为文件没问题。但解析器是按规范严格读取的,不会帮你猜用哪种方式读取,典型表现就是”WPS 能打开,一解析就报错”

“万物皆 PDF”的用户信仰:实际项目里出现频率极高的一类。用户习惯把任何文件都先转成 PDF 再丢进来:PPT 逐页导图再合 PDF、Excel 截图拼 PDF、Word 打印后扫描成 PDF、甚至几十张手机照片直接合一份 PDF……PDF 在用户眼里 ≈ “万能容器”,文件能不能塞进去并不重要,重要的是”格式统一”。问题是,这种用法常常已经远远超出 PDF 格式的合理边界,文本层、字体信息、结构标签全丢,留给解析器的只是一沓被 PDF 壳子包起来的图。解析器没得选,只能整页走 OCR,速度慢、精度掉,工程上也无法针对性的优化

[实战手记] 这些场景没有银弹,只有针对性的”拆弹”。几个我们踩过的坑和对应的处理思路:

•**跨页表格:**在切片阶段引入”回看机制”,当检测到当前页顶部有无表头的表格行时,自动向前查找上一页的表头并拼接

•**混合版式:**对布局分析结果做二次校验,当检测到区域重叠或嵌套时,按照优先级规则(表格 > 图表 > 公式 > 文本)重新分配区域归属

•**字体乱码:**对直接提取的文本做编码检测,当乱码率超过阈值时自动回退到 OCR 路径

•**“万物皆 PDF” 入口护栏:**针对客户随手把各种文件转成 PDF 丢进来的情况,必须在解析入口先架一道”门禁”:规定页面尺寸、图像分辨率、单页面积、文件大小的上下界(过大降采样、过小升采样、过界拒收并告警);同时把翻转矫正(90°/180°/任意角度倾斜)、空白页/无效页过滤、扫描噪点清理这些预处理放到最前面跑完。坏文件提前洗一遍,后面流水线才不会崩得太快

但也有些场景至今仍未很好地解决,比如无边框表格的结构识别、行内公式和周围文字的精确切分。这些是整个行业的共同难题。

效果问题的本质困境

文档解析的效果问题,本质上是个**长尾分布:**80% 的常见文档类型,现有模型和流水线已经能处理得不错。但剩下的 20% 边缘案例,每一个都可能要专门的规则、专门的模型、甚至专门的数据标注才能拿到较为准确的结果。

我们知道提升效果首先要解决的不在 “怎么更好的处理”,而是知道”现在走到哪了(拿到多少分了)”, 这就离不开评估数据集的准备。学术界的 OmniDocBench[24]、PubLayNet、DocLayNet、M6Doc 等公开基准,能告诉你模型或者流水线在测试集上跑多少分,但和真实生产环境遇到的文档还差得太远。OmniDocBench 团队自己后来在 Real5-OmniDocBench[25] 里直接点名了这个 “reality gap”:就算在测试数据集跑出了高分,遇到光照不均的手机扫描件、中英混排的产品手册、内部格式的工程图纸就原形毕露。没有经过生产环境和行业经验沉淀的评估数据集,根本谈不上明确的优化方向,只能像无头苍蝇一样四处打转碰运气。

业内大厂普遍的解法是自建评估集,把真实业务中出过问题的文档脱敏沉淀,标注成回归测试集。但这件事本身很复杂,过程冗长:采集要尊重用户隐私、标注要专家参与、覆盖度要持续补充,很多团队根本撑不到那一步。

即便有了衡量的尺子,从 70 分爬到 90 分还相对容易,靠架构选型和模型升级就能拿下,堆流水线、换 LayoutLMv3、上 DocLayout-YOLO,边际收益肉眼可见。但从 90 分往 95 分走,相当于重新开始爬另一座高山。常见套路无非那几种:按行业重训子模型、加重预处理(歪斜矫正/去噪/多分辨率)、堆后处理规则、模型集成投票、稀有版式合成数据。

代价也清晰:一整套折腾下来,准确率可能从 92 升到 93,端到端吞吐砍半,线上问题排查链路变长,回归测试从两天拖到一周。付出了那么多,回报就是在自家评估集上提升一两个点,而且经常拆东墙补西墙,修好 A 类文档后,B 类文档反而出现回退。

[实战手记] 在实战中我们通常需要和客户进行多次讨论,确定以下问题达成一致共识:是否有数据集,有没有必要建立评估数据集,准确率的指标该怎么定义,准确率目标值是一个成本曲线拐点而不是一个技术目标。同时我们也会给出下面的建议:对大多数文档类型,投入工程量去拼最后这几个准确率点往往不划算,更好的策略是把注意力转移到这四件事上:

1.覆盖面:能处理的文档类型更多一些,比单一类型拿到更高的准确率更有价值

2.降级机制:识别不确定时明确告诉用户”这里可能有问题”,比强装准确好得多

3.反推文档标准化:解析失败的非典型 case,往往不是模型不行,而是企业内部文档本身就没规矩。比如图片/表格标题的格式各写各的(有的标在图上、有的标在图下、有的干脆没有),跨页表格策略五花八门(有的直接断开、有的每页都重复表头、有的拆成”表 1""表 2”)。我们的做法是把这些坑系统地暴露给客户,并给出具体的撰写规范建议,反过来推动企业内部文档标准的收敛。

4.开放人工兜底入口:对那些解析效果不理想、但业务上又必须进入 RAG 问答的文件,光靠模型迭代救不回来。至少需要有方便的兜底入口,例如切片层级的直接编辑通道,业务方可以在 UI 上手动增删切片、调整切片边界、修补缺失的表格内容、补齐图片/表格的标题关联。把最后一公里交给人,比强行让模型扛下所有 case 划算得多。

只有当某类文档是业务核心、值得单独”培养一条流水线”时,再去投入工作量到那最后几分的攻坚

第三关:落地

当解析效果到达了一定程度,要在生产环境里稳定运行,还有实际的问题要解决。

任务管理:解析天生需要调度框架

一份 200 页的 PDF,经过布局分析、OCR、表格识别、关系整合,可能需要跑几分钟甚至更久。当几十个用户同时上传文件,许多问题就逐渐暴露:

• 同步还是异步?同步等待体验太差,异步又需要完善的任务队列

• 用户看不到排队进度

• 任务失败了怎么重试?部分成功怎么处理?中断了怎么恢复?

[实战手记] 我们的方案以及思路如下:

同步 / 异步双入口分流。 对话应用界面里上传的文件,通常都做了大小和格式的硬限制(比如≤10MB 的 Word/PDF),走同步解析接口直接返回结果,用户体感交互需要和”贴张图聊天”差不多。知识库这种允许扔进上百页 PDF、几十兆 Excel、扫描件批量导入的入口,则一律切到异步队列。

异步队列 + 路由调度。 异步链路核心是RabbitMQ:任务入队后立即返回 task ID,前端凭 ID 轮询当前在队列里的位置,至少让用户知道”我排第几个”。任务路由:解析服务做分布式部署后,每个节点的算力配置并不一样:有 GPU 的节点处理重型流水线(OCR + 布局 + 表格识别),没 GPU 的节点专门接简单任务(文本层直抽、Word/HTML 解析)。RabbitMQ 的 routing key 按文件特性把任务派到合适队列,资源利用率和吞吐都能上一个台阶。

任务取消与中断处理。 大任务的”运行中取消”有真实工程价值:一份 200 页 PDF 跑到一半,用户在前端点了取消,光从队列里删任务远远不够,正在占着 GPU 的子流程必须真正停下来,算力才能让给后面排队的任务。我们的做法是给每个解析任务挂一组自定义信号量:前端取消请求落地后,调度器通过信号量通知正在执行的 worker 在最近的检查点退出,并同步前后端任务状态(已取消 / 中间产物是否保留)。异常中断后怎么恢复,目前没有特别漂亮的方案,只能尽量清理已占用的资源,避免拖垮其他任务,同时把中断原因(OOM / 超时 / 上游不可用 / 用户主动取消)回传给前端,让用户至少知道”为什么挂了”。

速度与精度的永恒博弈

用户的需求永远是”又快又准”,但在工程现实中,这两者几乎总是矛盾的:

• 高精度模型(如 LayoutLMv3、专用表格识别模型)推理速度慢,GPU 资源消耗大

• 轻量级方案(如纯规则+OCR)速度快,但遇到复杂版式就错

• 同一个文档,走完整流水线和只走 OCR + 规则,耗时可能差 10 倍

更麻烦的是,不同用户、不同文档类型、不同使用场景的最优平衡点完全不同。给审计团队处理合同需要极致精度,给运营团队批量导入产品说明书只需要 80% 的准确率但速度要快。

[实战手记] 我们的策略是:系统根据文件类型和用户配置,自动选择不同的解析”档位”(快速模式:纯 OCR + 基础规则;标准模式:完整流水线;精细模式:大模型优化、验证)。用户也可以手动切换。本质上是把”速度 vs 精度”的选择权交还给用户,而不是替他们做决定。

保密文件与可视化调试

企业客户的文档经常涉及商业机密,如合同、财务报表、产品说明书等。解析效果不好或者有特殊报错时,无法拿到原文件进行调试。

这种”蒙着眼睛修车”的场景,对解析流程的可视化和可调试性提出了极高要求:

• 流水线每一步的中间结果需要可视化:布局分析画了什么框?OCR 认了什么字?表格结构怎么拆的?

• 每一步中切换不同模型或调整参数后的效果差异,需要能直观对比

• 这些可视化工具本身不能泄露文档内容,最好能在客户环境本地运行

通用解析器的边界:什么时候该”定制”?

有些文件天生不属于”通用解析”的范畴。比如一类特殊的工程图纸:每张图上方固定位置标注了分组名称和组内索引号,下方固定位置标注了图纸标题,格式完全固定,规则完全明确。

用通用解析器处理这类文件,反而是大材小用:模型费了半天劲做布局分析,不如一条正则表达式来得准。但如果为每种特殊格式都写定制解析器,维护成本又会爆炸。

[实战手记] 我们的策略是:当文件格式有明确的、稳定的规则时,规则优先于模型;当规则无法覆盖变化时,模型兜底。 通用解析器负责”大多数”,定制规则负责”特殊的那几种”,关键是要设计好两者的切换机制和优先级。

输出格式之争:Markdown 够不够用?

还有一个容易被低估的生产化决策:解析结果以什么格式输出?

不同技术路线给出了不同的默认答案。大模型路线(GPT-4o、GOT-OCR、Nougat 等)几乎清一色输出 Markdown;流水线系统(MinerU、Unstructured、Docling)则同时提供 Markdown 和元素级结构化 JSON,甚至打包成包含图片文件的 ZIP 资产包。

这不只是”格式偏好”,它直接决定了下游能做什么。

Markdown 的优势在于通用性:人类可读、大模型能直接消费、几乎所有 RAG 系统都能接入。对于”这份合同的甲方是谁?“这类通用问答,Markdown 完全够用。

但 Markdown 也有它的局限性:

• **图片只剩一个链接 **,无法对图片做独立的向量检索、OCR 或多模态问答

表格结构被简化,尽管现在支持了html 形式的表格内容表示(合并单元格的问题有了着落),但是相关联的标题和脚注的全部丢失,而且对于某些场景用户更希望看到原文的表格(原文的表格区域截图)增加可信度

没有坐标信息,无法实现”点击答案→跳转原文对应位置”的溯源定位

**元素级 JSON **则补齐了这些缺失。以 MinerU 的 middle.json 为例,每个元素都携带类型标记(text/title/table_body/image_body/list/interline_equation 等)、坐标(bbox/poly)、置信度、以及 Block→Line→Span 的层级嵌套。Unstructured 定义了 NarrativeText、Table、Image、FigureCaption 等十余种元素类型并附带页码、坐标和父子关系。Docling 更进一步,用 DoclingDocument 把整个文档建模为一棵结构树:body 管主体内容,groups 管列表和章节分组,furniture 管页眉页脚。

有了元素级数据,图片可以单独裁切做向量化和 OCR,表格可以独立入结构化存储,每个答案都能追溯到原始页面的精确区域。代价是 JSON 体积大(通常是 Markdown 的 3-10 倍),下游系统需要专门的消费逻辑。

本质上:**Markdown 决定了”能问答”的下限,元素级结构化决定了”能做多深”的上限。 **选择只输出 Markdown,就是选择了”够用就好”;选择同时保留结构化数据,就为后续的多模态检索、精准溯源、知识图谱构建打开了大门。

[实战手记] 我们的解决方案如下:

双轨输出:Markdown + 元素级 JSON 共存。 解析服务一次解析、同时产出 Markdown 和元素级 JSON。Markdown 直接喂 RAG 链路做通用问答;JSON 用来构建元素索引:图片单独向量化,表格单独入结构化存储,坐标建索引撑起溯源。两条轨道共享同一次解析,多花的成本有限,但能力上限能提升不少。Markdown 决定”能问答”的下限,JSON 决定”能做多深”的上限。

多引擎插件化 + Adapter 模式。 平台级解析服务里,引擎不会只有一个:学术论文 MinerU 效果好,扫描件需要用更 Paddle OCR 更稳,多语言场景 Mathpix / LlamaParse 准确率更高,调度层按文件类型动态路由。麻烦的是各家输出又大不相同:MinerU 出 ZIP 包(markdown/ + images/ + 自定义 Block-Line-Span 三级嵌套的 middle.json);LlamaParse v2 返回 JSON,图片是有时效的 presigned URL;Mathpix 出 .mmd 扩展语法,图片 base64 内联;Docling 出 DoclingDocument 树形 Pydantic 对象;有些云服务干脆甩一段纯 Markdown,图片链接几小时后就失效。我们的解法是适配器 + 统一中间表示:先定一套平台自己的中间 Schema(统一元素类型枚举 text/title/table/image/formula/list/header/footer,统一元数据字段page_number/bbox/confidence/caption/content,用 JSON Schema 约束),只覆盖核心字段;再为每个引擎写一个 Adapter,把原始输出”翻译”成中间 Schema:ZIP 类先解压定位、纯 Markdown 类主动拉图、JSON 类做字段映射。上层应用只消费中间 Schema,底层引擎随时替换、叠加、A/B 测试都不影响业务逻辑。

图片必须落到自己存储 + 标题显式关联。 无论原始是本地路径、base64 内联还是 presigned URL,Adapter 统一下载到平台自己的对象存储,并把 Markdown 里的图片链接改写为内部地址。另一个容易忽视的点:图片/表格的标题要显式关联回本体。JSON 里 image_caption 和image_body 是独立元素,不挂关系的话,搜标题关键词基本不会命中图片本身;表格的标题和脚注同理。超链接、加粗/斜体(常用来标关键术语)、页面物理尺寸(坐标的前提)这些元数据,也需要放到特定的JSON 字段才能保住。

下一步

身处浪潮之间,夯实地基,择优而变

把 PDF 变成 Markdown 或 JSON,只是数据知识化的第一步。真正的目标是让这些内容进一步变成机器能推理、能关联、能行动的知识。从”读懂文档”到”理解知识”,也有不同方向的尝试。

Agent 驱动的解析:从单次执行到闭环推理

当前的解析系统,不论流水线还是端到端大模型,本质上都是单次执行:输入一张图,输出一段文本,错了要么人工查要么下游兜。

LlamaIndex 把另一种范式总结为 “Agentic Parsing”[26]:解析不再是静态函数调用,而是带规划、反思、自我修正的推理工作流。简单文本走 OCR,复杂表格调专用模型,图表送多模态大模型;结果出来再做一轮质量检查,置信度低的区域自动回溯重试,每一段内容都关联回源文档坐标以便溯源。

论文端已有实证。AgenticIE[27] 用 Planner-Executor-Responder 三段循环处理欧盟建筑合规文档,在 15,000+ 标注实体的实验里 Exact Match 比 GPT-4o 直接提取高 16%、比 GPT-4o-Vision 高 26%,差距来自调度和纠错,不是底层模型更强。DocAgent / MDocAgent[28-29] 则把长文档拆成多角色分工(通用规划 + 文本/图像专员 + 批判 Agent + 汇总),在长文档基准上平均提升约 12%。

也就是说文档理解一次调用搞不定,得能规划、能分工、能有介入修改的机会。Agent 架构正好合适。

从”通用 OCR”走向行业专用解析引擎

另一条路是面向垂直领域的专用解析引擎。金融要验票据查印章,科研要还原公式和分子结构,政务法律要守住版式和脱敏,这些”行业默认知识”通用模型短期内给不出。真正在客户那儿赚到钱的,往往就是这些”专科医生”型引擎。

代表方向各有侧重:金融侧的发票云、RPA 把 OCR + 验真 + 三单匹配做成流水线[30-31];科研侧的多模态文献模型单独处理公式、分子图、实验图表[32];政务法律侧靠印章识别和复杂版面还原吃饭[33]。通用平台也在反向渗透,Adobe Acrobat AI Assistant 往 PDF 里嵌对话式解读和合同比对[34]。

从解析到”AI 友好的知识层”

解析输出的 Markdown / JSON 还是扁平的,企业真正想要的是关联知识 + 可追溯决策:合同里的甲方和财报里的公司是不是同一家?这条特殊条款是谁批的、依据哪条先例?

GraphRAG 那套”抽实体 → 建图 → 检索”曾被当成终点,2026 年这条赛道的重心已经迁走,三种新范式接力,把”知识层”从给人看的库,改造成给 AI 自己读、自己写、自己改的脑子:

LLM Wiki(Karpathy, 2026)[35]:弃用 RAG,把知识沉淀回一坨结构化 Markdown,由 Agent 负责 ingest / query / lint,跳过 chunk + embedding + rerank 全套流水线。

GBrain(Garry Tan, 2026.04)[36]:LLM Wiki 的企业级版,Git + pgvector,每条知识分”线上:当前最佳理解 / 线下:追加证据时间线”两层。重点不是召回率,而是让 AI 跨会话保留对组织的连续认知。

Context Graph(Gupta, 2025)[37]:把企业里真正决定走向的决策轨迹——谁批了哪条例外、参考哪条先例、合同修改背后的博弈过程,将这些隐性信息沉淀为跨实体、跨时间的关系图谱,让 Agent 不仅知道“该怎么做”,更清楚“上次类似情况怎么处理”。

它们共同的信号是:新生的知识从一开始就是 AI 友好的——条目原子化、引用可溯源、变更带时间线。这正是开篇说的”未来文档以机器友好的形式生成”的雏形,也是解析最终退到幕后的方向。

但那一天还没到。 合同还在用 Word 写,报告还在导出 PDF,扫描件还在归档,企业历史里堆着的几十亿份文件没有一份是按 LLM Wiki 格式生出来的。在新工作流彻底接管之前,会长期存在两条轨道:

存量轨道:人类格式资料→ 解析 → 结构化知识 → LLM Wiki / GBrain / Context Graph

增量轨道:Agent 原生产出的对话、决策、产物 → 直接写入 AI 友好的知识层,无需额外转换

只有当增量轨道彻底压倒存量,解析才会真正退居幕后;在此之前,它就是连接人类文档与 AI 知识世界的唯一桥梁。无论上层技术范式叫什么,其底层根基始终不变:把人类习惯格式的文件,转化为机器能持续维护、复用的结构化知识。

今天的大模型和 Agent 赛道,新技术新项目迭代速度快到惊人,上午还遥遥领先,下午就可能被新突破超越。热点永远追不完,真伪也难以一时分辨。与其押注最新的潮流走向,不如夯实地基后再做决策:归纳沉淀,察觉判断,始终让技术选择回归场景本身,守住真实可落地的业务价值。

文档解析亦是如此。它并不会随着新模型发布就被轻易淘汰,反而始终是所有知识类智能系统绕不开的底层根基。把这一层基础做扎实了,上层无论是搭建智能 Agent、构建知识图谱,还是落地各类垂直检索引擎,业务应用才能真正做到可用、可信,当然这条路还有很长要走。

参考文献

[1]: Gartner. 《2025 年中国数据、分析和人工智能技术成熟度曲线》(Hype Cycle for Data, Analytics, and AI in China, 2025). Gartner Research, 2025.

[2]: 人民日报. 《AI 大模型究竟如何”思考”?》——关于大模型预训练数据规模与幻觉成因的科普报道.https://paper.people.com.cn/rmrb/html/2023-10/24/nw.D110000renmrb_20231024_2-20.htm

[3]: DeepSeek-AI. DeepSeek-V4-Pro / V4-Flash Preview Release (2026-04-24). 1.6T / 284B 参数 MoE,1M token 上下文,预训练 33T / 32T tokens. https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ; Kili Technology. *DeepSeek V4: Engram Memory, Training Data Strategy & Release Status (2026)*. https://kili-technology.com/blog/data-story-deepseek-v4

[4]: Microsoft. *Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone*, 2024. arXiv:2404.14219 ; *Phi-4 Technical Report*, 2024. arXiv:2412.08905. (以”教科书级”高质量合成与筛选语料训练,小模型在多项基准上反超体量数十倍的通用模型)

[5]: Drenik, G. The AI Paradox: Why World-Class Algorithms Fail On Second-Class Data. Forbes, 2026-04-23. https://www.forbes.com/sites/garydrenik/2026/04/23/the-ai-paradox-why-world-class-algorithms-fail-on-second-class-data/

[6]: Zhao, Y. et al. DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception. arXiv:2410.12628, 2024.

[7]: Zhang, Q., Wang, B., Huang, V. S. J., et al. Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction. arXiv:2410.21169, 2024.

[8]: Xu, Y. et al. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. KDD, 2020. arXiv:1912.13318.

[9]: Xu, Y. et al. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding. ACL, 2021. arXiv:2012.14740.

[10]: Huang, Y. et al. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. ACM MM, 2022. arXiv:2204.08387.

[11]: Wang, J. et al. DLAFormer: An End-to-End Transformer For Document Layout Analysis. ICDAR, 2024. arXiv:2405.11757.

[12]: HybriDLA: Hybrid Autoregressive-Diffusion Decoding for Document Layout Analysis. 2025.

[13]: DRGG: Document Relation Graph Generation for Layout and Logical Structure. 2025.

[14]: Zhong, X., Tang, J., Jimeno-Yepes, A. PubLayNet: Largest Dataset Ever for Document Layout Analysis. ICDAR, 2019. arXiv:1908.07836.

[15]: Cheng, H. et al. M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis. CVPR, 2023. (合合信息 & 华南理工大学)

[16]: CodeSOTA. Claude vs GPT-4o for OCR: I Tested Both (2026). CC-OCR 评测对比, 2026. https://codesota.com/ocr/claude-vs-gpt4o-ocr

[17]: Reddit r/MachineLearning. [D] Why is table extraction still not solved by modern multimodal models? 2025. https://www.reddit.com/r/MachineLearning/comments/1jnjfaq/d_why_is_table_extraction_still_not_solved_by/

[18]: Blecher, L., Cucurull, G., Scialom, T., Stojnic, R. Nougat: Neural Optical Understanding for Academic Documents. Meta AI, 2023. arXiv:2308.13418.

[19]: Wei, H. et al. General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model (GOT-OCR 2.0). 阶跃星辰, 2024. arXiv:2409.01704.

[20]: Wan, J. et al. OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition. CVPR, 2024. arXiv:2403.19128.

[21]: Liu, C. et al. Focus Anywhere for Fine-grained Multi-page Document Understanding (Fox). 2024. arXiv:2405.14295.

[22]: MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale. 上海人工智能实验室, 2026. arXiv:2604.04771. (1.2B 参数; OmniDocBench v1.6 综合分 95.69, 截至 2026/04 居首)

[23]: LlamaIndex. The Cost of Overthinking: Why Reasoning Models Fail at Document Parsing 及 OmniDocBench 饱和度分析. LlamaIndex Blog, 2026.

[24]: Ouyang, L. et al. OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations. CVPR, 2025. arXiv:2412.07626.

[25]: Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild. arXiv:2603.04205.

[26]: LlamaIndex. AI Document Parsing: How LLMs Are Redefining How Machines Read and Understand Documents. LlamaIndex Blog, 2026. https://www.llamaindex.ai/blog/ai-document-parsing-llms-are-redefining-how-machines-read-and-understand-documents

[27]: Colakoglu, G., Solmaz, G., Fürst, J. AgenticIE: An Adaptive Agent for Information Extraction from Complex Regulatory Documents. Zurich University of Applied Sciences & NEC Laboratories Europe, 2025. arXiv:2509.11773.

[28]: DocAgent: An Agentic Framework for Multi-Modal Long-Context Document Understanding. EMNLP, 2025.

[29]: Han, S. et al. MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding. 2025. arXiv:2503.13964.

[30]: 金蝶. 《金蝶发票云:智能综合收票服务》及《金蝶 AI 星辰:小微企业业财税一体化系统》. https://www.kingdee.com/products/fpy_sp.html ; https://www.kingdee.com/product/small ;以及《金蝶基于第四代英特尔® 至强® 可扩展处理器优化智能 OCR 服务性能》白皮书.

[31]: 用友. 《智友 RPA:流程机器人》(用友开发者中心)及《用友 NC Cloud 内置 RPA 机器人——发票识别、三单匹配、自动结账》. https://developer.yonyou.com/product/smart/rpa ; https://rpa.yonyoucloud.com/

[32]: 深势科技. 《Uni-Finder:多模态科学文献大模型》, 2023. 基于自研 Uni-SMT (Uni-Science Multimodal Transformer) 处理论文公式、分子结构图、表格等多模态内容. (业内文献亦有以 “Uni-Parser” 指代该系列)

[33]: 合合信息. 《TextIn 智能文档处理平台:印章识别 / 智能合同审查 / 复杂表格还原》. https://www.textin.com/ ;以及《“AI+OCR”破解复杂场景印章核验》, 中国财经报, 2022.

[34]: Adobe. Acrobat Studio Transforms Productivity and Creativity with AI Agents (Adobe Newsroom, 2026-01) ; Adobe Brings Conversational AI to Trillions of PDFs with the New AI Assistant in Reader and Acrobat (Adobe Newsroom, 2024) ; Acrobat AI Assistant Introduces New Generative AI Features for Contract Management (Adobe Newsroom, 2025-02). https://www.adobe.com/acrobat/generative-ai-pdf.html

[35]: Karpathy, A. llm-wiki. GitHub Gist, 2026. https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f (把 RAG 流水线换成 LLM Agent 维护的结构化 Markdown 文件夹,三件事:ingest / query / lint。X 上传播 1600 万次浏览,引出 Claude Code / Cursor 一系列 LLM Wiki Skill 实现)

[36]: Tan, G. gbrain. GitHub, 2026-04. https://github.com/garrytan/gbrain (Markdown + Git + Postgres/pgvector 的”个人 / 组织级 AI 大脑”。每条知识分”线上:当前最佳理解 / 线下:追加式证据时间线”两层。发布 24 小时 5,400+ stars)

[37]: Gupta, J. AI’s trillion-dollar opportunity: Context graphs. 2025-12. (提出”决策轨迹 / decision traces”概念:跨实体跨时间沉淀”为什么这么做”,让 Agent 拿到的不只是规则,而是”上次类似情况怎么处理的”先例图)

其他参考资料

• 开源流水线解析工具: MinerU(https://github.com/opendatalab/MinerU)、Unstructured (https://github.com/Unstructured-IO/unstructured)、Docling (https://github.com/docling-project/docling)、Marker

• 商业解析服务: Mathpix、LlamaParse (LlamaIndex Cloud)

• 端到端解析大模型: GLM-OCR (智谱)、PaddleOCR-VL (百度)、dots.ocr (小红书)

• 早期布局/OCR 相关: R-CNN / Fast R-CNN / Mask R-CNN、YOLO 系列、BEiT、DiT、Doc-GCN、GLAM、BERTGrid、VGT、DocOwl1.5、Qwen2-VL、UReader、TextMonkey

• PDF 文本直接抽取: pypdf、PyMuPDF、pdfminer

• 多模态长文档评测: MMLongBench、LongDocURL